文章标签

GPU 调度

Volcano 在 K8s 集群中的生产级部署与插件配置实战

Volcano 是 CNCF 孵化的云原生批处理调度系统，专为 AI、大数据、HPC 等高并发计算场景设计。相比默认的 Kube-scheduler，它提供了 Gang Scheduling 、 Queue 管理、任务拓扑感知等...

2026/4/12 0 93 0 0 0 Volcano Kubernetes 批处理调度
深度解析 K8s 调度器扩展框架：编写自定义插件支持复杂 AI 任务

在云原生时代，Kubernetes (K8s) 已成为管理容器化应用的事实标准。然而，随着 AI/ML 任务的爆发式增长，默认调度器的“逐个 Pod 调度”逻辑逐渐显露疲态。AI 训练通常涉及分布式计算（如 PyTorch DDP、Ten...

2026/4/12 0 60 0 0 0 Kubernetes AI基础设施调度算法
Volcano 与原生 K8s 调度器在分布式深度学习中的实战对比

在构建企业级 AI 训练平台时，调度器往往是决定 GPU 集群利用率与任务交付效率的核心瓶颈。原生 K8s 调度器（kube-scheduler）为通用微服务设计，而 Volcano 是 CNCF 沙箱项目中专为 HPC 与 AI 负载打...

2026/4/12 0 68 0 0 0 分布式深度学习 Volcano
深度解析：Volcano 与 K8s 原生调度器在 AI 训练场景下的性能博弈

在云原生 AI 基础设施的构建中，Kubernetes（K8s）已成为事实上的标准。然而，随着 AI 训练任务（特别是大模型分布式训练）的规模不断扩大，原生 K8s 调度器（default-scheduler）在处理这类高并发、强依赖的任...

2026/4/12 0 53 0 0 0 Kubernetes Volcano AI 基础设施
深入解析 K8s Coscheduling：实现 Gang 调度及其在大规模拓扑下的局限性

在分布式训练（如 AI 模型训练）和高性能计算（HPC）场景中，任务通常要求“要么全部运行，要么全不运行”。这种需求被称为 Gang Scheduling 。虽然 Kubernetes 原生调度器最初是为长连接微服务设计的，但通过 S...

2026/4/12 0 69 0 0 0 Kubernetes 调度插件云原生架构
NVIDIA MIG 多租户推理实战：在隔离性、碎片率与调度复杂度之间寻找最优解

问题背景：当 GPU 成为"超售"的重灾区在承载数百个在线推理服务的多租户平台中，我们面临一个经典困境：单个 A100-80GB GPU 上跑一个 7B 参数的 LLM 服务，显存占用仅 16GB，计算单元利用率...

2026/4/12 0 73 0 0 0 MIG GPU虚拟化多租户调度
Serverless 推理冷启动压到 100ms：MIG 预热池与 Kata 容器的协同架构

在 Serverless AI 推理场景中，100ms 的冷启动 SLA 是工业级产品化的分水岭。传统容器化方案受限于镜像拉取、运行时初始化、GPU 驱动加载与模型权重读取，冷启动通常在 2~5 秒量级。要将链路压缩至 100ms 以内，...

2026/4/12 0 65 0 0 0 MIG预热池 Kata容器
AI炼丹师的痛：如何打造公平高效的GPU资源调度系统

作为一名深度学习工程师，我深有体会，每次模型训练前，最让人心焦的不是算法设计有多复杂，也不是数据预处理有多繁琐，而是那漫长而又不可预测的GPU资源排队等待。有时候，一个实验任务需要排队一整天，眼睁睁看着GPU闲置却无法启动自己的任务，那种...

2025/10/5 0 192 0 0 0 深度学习 GPU调度资源管理
CUDA 事件：GPU 性能调优的秘密武器

CUDA 事件：GPU 性能调优的秘密武器作为一名 CUDA 开发者，你肯定遇到过这种情况：程序跑起来了，结果也貌似正确，但就是感觉…慢！慢吞吞的 GPU 程序就像蜗牛爬行，让人抓狂。别担心，今天咱们就来聊聊 CUDA 性能调优的秘...

2025/3/12 0 581 0 0 0 CUDA 性能调优 GPU
AIGC项目GPU资源评估与成本控制：告别“心没底”

AIGC（人工智能生成内容）正以前所未有的速度改变着各行各业，从智能客服到内容创作，其应用潜力巨大。然而，要将这些潜力转化为实际生产力，背后的GPU算力投入是企业必须面对的核心挑战之一。您公司面临的“GPU资源心没底”的困惑，是许多初涉A...

2025/10/5 0 2127 0 0 0 AIGC GPU 成本控制
Nsight Systems 实战：多进程应用性能瓶颈分析与优化

大家好，我是你们的性能调优伙伴“码力十足”！今天咱们来聊聊如何使用 NVIDIA Nsight Systems 这款神器，来解决多进程应用中那些让人头疼的性能瓶颈。相信很多开发者在面对多进程应用时，都会遇到 CPU 资源争用、GPU 空闲...

2025/3/13 0 602 0 0 0 Nsight Systems 多进程优化 GPU性能分析
混合云弹性 GPU：从业务角度分析投资回报率

混合云弹性 GPU 方案的投资回报率（ROI）分析：业务视角在考虑采用混合云弹性 GPU 方案时，投资回报率（ROI）是至关重要的考量因素。我们需要明确，这项投资究竟是为了应对高峰期极致体验的额外成本，还是在保障核心服务质量的前提下...

2025/10/5 0 2078 0 0 0 混合云弹性GPU 投资回报率
CUDA 动态并行：进阶技巧与实战案例

CUDA 动态并行：进阶技巧与实战案例你好！我是你们的 AI 伙伴，今天咱们来聊聊 CUDA 动态并行（Dynamic Parallelism）的那些事儿。相信你已经对 CUDA 编程有了一定的了解，甚至已经写过不少核函数（Kern...

2025/3/12 0 530 0 0 0 CUDA 动态并行 GPU编程
AIGC浪潮下企业GPU算力评估与扩容策略：一份实战指南

AIGC（生成式AI）技术的爆发式发展，正以前所未有的速度重塑各行各业，从内容创作到代码生成，从客服交互到数据分析，其应用潜力几乎是无限的。然而，这种变革也给企业的IT基础设施带来了巨大挑战，尤其是对GPU算力的潜在需求评估与扩容规划。面...

2025/10/5 0 2203 0 0 0 AIGC GPU算力云计算
XLA编译器如何优化不同架构GPU（例如Nvidia Volta、Ampere）？深度解析与性能差异

XLA编译器如何优化不同架构GPU（例如Nvidia Volta、Ampere）？深度解析与性能差异 XLA（Accelerated Linear Algebra）是一个用于线性代数运算的领域特定编译器，它可以将高层次的计算描述编译成...

2024/12/29 0 589 0 0 0 XLA GPU 编译器优化
万亿参数级AI模型推理：NUMA内存墙与分片、同步、数据流优化实践

作为一名深耕高性能计算和AI基础设施的工程师，我深知当我们将万亿参数级别的多模态AI模型推向生产环境时，那些看似微不足道的系统瓶颈会如何放大，最终成为横亘在推理性能面前的“内存墙”。尤其是在现有的非统一内存访问（NUMA）架构下，这个问题...

2025/7/29 0 319 0 0 0 AI推理内存墙 NUMA架构
Kubernetes 资源限制：除了 CPU 内存，还能限制什么？

Kubernetes 除了 CPU 和内存，还能限制哪些资源？在 Kubernetes 中，除了 CPU 和内存，你还可以对以下类型的资源进行限制和监控： GPU (图形处理器): 用于机器学习、深度学习、图形渲染等需...

2025/10/23 0 177 0 0 0 Kubernetes 资源管理 GPU
AI视觉检测：多模型推理服务异构集成与高效管理实践

在现代AI视觉检测系统中，集成来自不同供应商的深度学习模型已成为常态。然而，这些模型通常是“黑盒”，高度依赖特定框架（如TensorFlow、PyTorch）且拥有各自复杂的依赖关系，给在统一生产线上高效、稳定地运行和管理带来巨大挑战。如...

2025/10/4 0 246 0 0 0 AI推理模型部署 MLOps
TensorFlow和PyTorch在GPU环境下的性能调优策略：深度学习实战经验分享

深度学习模型训练耗时往往令人望而却步，尤其是在处理大型数据集时。充分利用GPU的计算能力至关重要。本文将分享一些在GPU环境下，针对TensorFlow和PyTorch框架进行性能调优的实用策略，结合实际经验，希望能帮助你提升模型训练速度...

2024/12/29 0 1051 0 0 0 深度学习 TensorFlow PyTorch
分散显存异构GPU的深度学习训练策略

在深度学习训练中，尤其当我们团队拥有多块GPU但显存分散、配置不一（例如，几块不同型号的旧显卡）时，如何高效利用这些异构资源就成了一个棘手的问题。简单的数据并行可能无法满足大模型训练的需求，或者导致显存溢出。这时，我们需要更精细的策略。 ...

2026/1/19 0 126 0 0 0 深度学习分布式训练 GPU优化

文章标签

GPU 调度

Volcano 在 K8s 集群中的生产级部署与插件配置实战

深度解析 K8s 调度器扩展框架：编写自定义插件支持复杂 AI 任务

Volcano 与原生 K8s 调度器在分布式深度学习中的实战对比

深度解析：Volcano 与 K8s 原生调度器在 AI 训练场景下的性能博弈

深入解析 K8s Coscheduling：实现 Gang 调度及其在大规模拓扑下的局限性

NVIDIA MIG 多租户推理实战：在隔离性、碎片率与调度复杂度之间寻找最优解

Serverless 推理冷启动压到 100ms：MIG 预热池与 Kata 容器的协同架构

AI炼丹师的痛：如何打造公平高效的GPU资源调度系统

CUDA 事件：GPU 性能调优的秘密武器

AIGC项目GPU资源评估与成本控制：告别“心没底”

Nsight Systems 实战：多进程应用性能瓶颈分析与优化

混合云弹性 GPU：从业务角度分析投资回报率

CUDA 动态并行：进阶技巧与实战案例

AIGC浪潮下企业GPU算力评估与扩容策略：一份实战指南

XLA编译器如何优化不同架构GPU（例如Nvidia Volta、Ampere）？深度解析与性能差异

万亿参数级AI模型推理：NUMA内存墙与分片、同步、数据流优化实践

Kubernetes 资源限制：除了 CPU 内存，还能限制什么？

AI视觉检测：多模型推理服务异构集成与高效管理实践

TensorFlow和PyTorch在GPU环境下的性能调优策略：深度学习实战经验分享

分散显存异构GPU的深度学习训练策略